スマホで見る方はQRコードを読み込んでください
library(readr)
library(ggplot2)
library(dplyr)
exdataset <- read_csv("../data/exdataset.csv")
## Reordering exdataset$ARE
exdataset$ARE <- factor(exdataset$ARE, levels=c("Kanto", "Hokkaido", "Tohoku", "Chubu", "Kinki", "Chugoku", "Shikoku", "Kyushu"))
## Reordering exdataset$MAR
exdataset$MAR <- factor(exdataset$MAR, levels=c("NotMarried", "Married"))
## Reordering exdataset$CHI
exdataset$CHI <- factor(exdataset$CHI, levels=c("NoChild", "Child"))
t検定とは2群の「平均値」を比較する方法です.しかし,実はこれも一般線形モデルの枠組みの中で考えることが出来ます.ここではその考え方について説明します.そこには「ダミー変数」という考え方が必要になります.
一般線形モデルではこんなモデル式から考える,というような話をしたかと思います.
\[Y_i=\beta_1 X_1 + \alpha+\epsilon_i \]
回帰分析ではY_iとX_1が数値データだった場合を示していました.しかし,例えばX_1に入れたいのが未婚者か既婚者,という因子データだったとします.この場合は,未婚者に対して0,既婚者に対して1という数字を割り当てると以下のように理解することができます.
数式の\(X_1\)に0を代入しましょう.
\[Y_i=\alpha+\epsilon_i \] こうすると,係数がなくなってしまいました.従って切片のみになります.
数式の\(X_1\)に1を代入しましょう.
\[Y_i=\beta_1 + \alpha+\epsilon_i \]
こうすると,$X_1$の係数のみが増えています.したがって,0を代入した未婚者に比べて,既婚者の方が$\beta_1$の分だけ変化していることがわかります.
このように,0か1の数字を入れてあげると0を入れられたグループと1を割り振られたグループでどれだけ差があるのか,ということを評価することができます.
そして,その「差」がどの程度あるのかも比較することができます.ここでは,主観的幸福度に未婚者と既婚者の間に差があるのか否かを,先ほどと同じような流れで考えていきましょう.
t検定に当たるのは2つの群に差があるのか否か,です.「差がある」を対立仮説,「差があるとはいえない」を帰無仮説とします.したがって,以下のような仮説を立てることが出来ます.
#####平均値をプロットする
はじめに,分析対象となるデータを読み込んでおきましょう.
これは前回のをそのままコピペしていただいてかまいません.
さて,例によってggplotguiを使いましょう.
以下のコードはConsole(コンソール)に直接打ち込みます.
library(ggplotgui)
ggplot_shiny(exdataset)
そうすると新しいウィンドウが開きます.
以下の通りの作業をしましょう.
0は未婚者を,1は既婚者を示しています.
これも同様に,本当に差があるのかどうかは,感覚的には明らかになっても科学的な根拠がありません.同じように検定をして確かめてみましょう.
#"hapsat_model"というオブジェクトに,分析モデルを代入する.
marhap_model<-lm(SUB_HAP ~ MAR, data = exdataset)
#分析結果の要約を出力する
summary(marhap_model)
Call:
lm(formula = SUB_HAP ~ MAR, data = exdataset)
Residuals:
Min 1Q Median 3Q Max
-6.6538 -1.6538 0.3462 1.3462 4.9391
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.0609 0.1115 45.41 <2e-16 ***
MARMarried 1.5929 0.1450 10.99 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.212 on 961 degrees of freedom
Multiple R-squared: 0.1116, Adjusted R-squared: 0.1106
F-statistic: 120.7 on 1 and 961 DF, p-value: < 2.2e-16
さて,この分析結果の見方は基本的なところは回帰分析と一緒です.特に着目すべきはCoefficientsのところなので,こちらについて説明します.
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.0609 0.1115 45.41 <2e-16 ***
## MAR 1.5929 0.1450 10.99 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
この結果について,またモデル式と共に説明します.この結果は\(\alpha\) が5.0609,\(\beta\) が1.5929という結果でした.したがって,モデル式は以下のように示すことができます.
\[Y_i=1.59291 X_1 + 5.0609+\epsilon_i \]
まずは係数について説明します.これは未婚者の場合と既婚者の場合について考えたいと思います.
未婚者の場合はX_1が0でした.したがって,以下のように示されます.
\[Y_i= 5.0609+\epsilon_i \]
すなわち,未婚者の平均値の予測は5.0509であると推定されます.
既婚者の場合はX_1が1でした.したがって,以下のように示されます.
\[Y_i=1.59291 + 5.0609+\epsilon_i \]
したがって,平均値は6.65381であると推定されます.
また,これらの推定値の妥当性はp値によって推定されます.いずれの結果についても0.001%以下であるためにこの結果は統計的にも明らかな差があると理解できます.したがって,未婚者に比べて,既婚者の主観的幸福度は明らかに高いと理解することができます.この結果を簡単にまとめましょう.
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 5.061 | 0.1115 | 45.41 | 2.223e-241 |
| MARMarried | 1.593 | 0.145 | 10.99 | 1.571e-26 |
| (1) | |
| (Intercept) | 5.061 *** |
| (0.111) | |
| MARMarried | 1.593 *** |
| (0.145) | |
| N | 963 |
| R2 | 0.112 |
| logLik | -2130.084 |
| AIC | 4266.168 |
| *** p < 0.001; ** p < 0.01; * p < 0.05. | |
library(stargazer)
stargazer(marhap_model, type = "html", align=TRUE, title = "分析結果", out = "marhap_model.xls")
<table style="text-align:center"><caption><strong>分析結果</strong></caption>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left"></td><td><em>Dependent variable:</em></td></tr>
<tr><td></td><td colspan="1" style="border-bottom: 1px solid black"></td></tr>
<tr><td style="text-align:left"></td><td>SUB_HAP</td></tr>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">MARMarried</td><td>1.593<sup>***</sup></td></tr>
<tr><td style="text-align:left"></td><td>(0.145)</td></tr>
<tr><td style="text-align:left"></td><td></td></tr>
<tr><td style="text-align:left">Constant</td><td>5.061<sup>***</sup></td></tr>
<tr><td style="text-align:left"></td><td>(0.111)</td></tr>
<tr><td style="text-align:left"></td><td></td></tr>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">Observations</td><td>963</td></tr>
<tr><td style="text-align:left">R<sup>2</sup></td><td>0.112</td></tr>
<tr><td style="text-align:left">Adjusted R<sup>2</sup></td><td>0.111</td></tr>
<tr><td style="text-align:left">Residual Std. Error</td><td>2.212 (df = 961)</td></tr>
<tr><td style="text-align:left">F Statistic</td><td>120.686<sup>***</sup> (df = 1; 961)</td></tr>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left"><em>Note:</em></td><td style="text-align:right"><sup>*</sup>p<0.1; <sup>**</sup>p<0.05; <sup>***</sup>p<0.01</td></tr>
</table>
今までは一般線形モデルの枠組みからt検定の紹介を,すなわちダミー回帰分析の1つとしてのt検定を紹介しました.一方で,普通のt検定は以下のように行うことができます.
しかしながら,2回検定を行うことは「検定の多重性」の観点から問題ではないか,という指摘もあったりします.
そこで,最近ではF検定を実施せずに いきなりウェルチのt検定を行うことが多くなっています. その場合は,以下のように記述することになります.
| Test statistic | df | P value | Alternative hypothesis |
|---|---|---|---|
| -10.85 | 808.3 | 1.03e-25 * * * | two.sided |
| mean in group NotMarried | mean in group Married |
|---|---|
| 5.061 | 6.654 |
| Test statistic | df | P value | Alternative hypothesis |
|---|---|---|---|
| -10.99 | 961 | 1.571e-26 * * * | two.sided |
| mean in group NotMarried | mean in group Married |
|---|---|
| 5.061 | 6.654 |
ちなみに,スチューデントのt検定と一般線形モデルにおけるダミー変数を用いたt検定は結果が一致します.
これは一般線形モデルが等分散性を仮定していることによります.
みなさんには分析にRの関数,“lm”というのを使ってもらっています.授業では,以下の通りに使っています.イメージとしては,グラフを想像してもらって,説明変数は「X軸」,応答変数は「Y軸」をイメージしてもらうとわかりやすいかと思います.
オブジェクト<-lm(応答変数 <- 説明変数, data = データセットの名前)
これについて,回帰分析/t検定の時は以下のコードを使っています.
summary(オブジェクト)
これについて,分散分析の時は以下のコードを使っています.
anova(オブジェクト)
分散分析とは,「3群以上の平均値の差があるかどうか」を比較・分析するための方法です.ここでは「1元配置分散分析」および「2元配置分散分析」というものについて説明します.いずれについても,説明変数が因子データ,応答変数が数値(順序)データとなります.
分散分析を一般線形モデルの枠組みで説明すると,以下のように理解することができます.ここでは,「3つの群の影響を受ける」場合について,モデル式を元に説明したいと思います.
\[ Y_i=\beta_1 X_1 +\beta_2 X_2 + \alpha+\epsilon_i \]
このモデルでは,$ X_1 $と $ X_2 $ はそれぞれ(1, 0)の値を取る「ダミー変数」です.しかし,これでは$ $ が2つしかありません.しかし,これだけで3つの群を表すことができます.以下には3つの条件についてモデル式を書き入れてあげたいと思います.
このモデルについて,平均値が異なるかどうかを調べます.特に,分散分析の場合は「分散分析表」と呼ばれるものを出して評価してあげます.
さて,それでは仮説を立ててみましょう.今回分析するテーマは「主観的幸福度(SUB_HAP)が地域(SUB_ARE)によって異なる」かどうかを分析します.一要因分散分析の場合は以下のような仮説を立てます.
この2つの仮説のもとに分析を行ないます.
今回の分析には,以下のモデルを前提とします. \[(主観的幸福度)=\beta_1 (北海道ダミー) +\beta_2 (東北ダミー) +\beta_3 (中部ダミー)+\beta_4 (近畿ダミー) +\beta_5 (中国ダミー)+\beta_6 (四国ダミー)+\beta_7 (九州ダミー) + \alpha+\epsilon_i \]
なお,このモデルではそれぞれの値は1か0の値しか取りません.
例えば,東北地方のデータである場合には,東北ダミーが1,それ以外のダミー変数は0を取ります.また,すべてのダミー変数が0の場合はコントロール群となる関東地方を示しています.
さて,例によってggplotguiを使いましょう.
以下のコードはConsole(コンソール)に直接打ち込みます.
library(ggplotgui)
ggplot_shiny()
そうすると新しいウィンドウが開きます.
以下の通りの作業をしましょう.
# You need the following package(s):
library("ggplot2")
# The code below will generate the graph:
graph <- ggplot(exdataset, aes(x = ARE, y = SUB_HAP)) +
geom_point(stat = 'summary', fun.y = 'mean') +
geom_errorbar(stat = 'summary', fun.data = 'mean_se',
width=0, fun.args = list(mult = 1.96)) +
theme_bw()そうすると,こんなグラフが算出されます.
このグラフを見る限り,地域ごとに差があるかどうかはわかりません.以前,平均値を算出してみたことがありましたが,今回はそれぞれが「統計的に差がある」ということが言えるかどうかを考えたいと思います. %分散分析表の読み方をもう少し説明する.
##分散分析をやってみる さて,分散分析をしてみましょう.
arehap_model<-lm(SUB_HAP ~ ARE, data = exdataset)#"hapsat_model"というオブジェクトに,分析モデルを代入する.
anova(arehap_model)#分散分析表| Df | Sum Sq | Mean Sq | F value | Pr(>F) |
| 7 | 75.1 | 10.7 | 1.96 | 0.0573 |
| 955 | 5.22e+03 | 5.46 |
Call:
aov(formula = arehap_model)
Terms:
ARE Residuals
Sum of Squares 75.066 5218.929
Deg. of Freedom 7 955
Residual standard error: 2.337701
Estimated effects may be unbalanced
Df Sum Sq Mean Sq F value Pr(>F)
ARE 7 75 10.724 1.962 0.0573 .
Residuals 955 5219 5.465
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Call:
lm(formula = SUB_HAP ~ ARE, data = exdataset)
Residuals:
Min 1Q Median 3Q Max
-6.5429 -1.4308 0.1515 1.9043 4.7813
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.095745 0.120558 50.563 < 2e-16 ***
AREHokkaido 0.447112 0.413125 1.082 0.27941
ARETohoku -0.876995 0.316105 -2.774 0.00564 **
AREChubu -0.237637 0.226845 -1.048 0.29510
AREKinki -0.247260 0.218299 -1.133 0.25764
AREChugoku 0.335025 0.314020 1.067 0.28629
AREShikoku 0.293144 0.564036 0.520 0.60338
AREKyushu -0.008788 0.271909 -0.032 0.97422
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.338 on 955 degrees of freedom
Multiple R-squared: 0.01418, Adjusted R-squared: 0.006954
F-statistic: 1.962 on 7 and 955 DF, p-value: 0.05729
この分散分析表の結果より以下のように結果を導き出すことが出来ます.
主観的幸福度は地域によって異なるかを分析した.その結果,F(7, 955)=1.9623(p< .10)であり,有意傾向にあることが示されている.したがって,主観的幸福度は居住地域によって異なる傾向にあることが示されている(モデル式の結果を入れてあげると良いでしょう).
さらに,モデル式による分析結果を出力しました.この結果が示しているのは以下のようなことです.
\[ (主観的幸福度)=0.447112*北海道-0.876995*東北 \] \[ -0.237637*中部-0.247260*近畿 \] \[ +0.335025*中国+0.293144*四国 \] \[ -0.008788*九州+6.095745 + \epsilon_i \]
分散分析表とは,分散分析の結果を示すものです."Df"は自由度を示しています. "Sum Sq"は平方和であり,"Mean Sq"は平均平方,"F value"はF値であり, "Pr(|F| )"はp値を示しています.ここでは細かい読み方については説明しませんので,様々な本を参考にしていただければ幸いです.
結果を文章にして書くのであれば,このように書けます.
今度はモデル式についても同じように出力してあげましょう.回帰分析やt検定と同じです.
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 6.096 | 0.1206 | 50.56 | 2.84e-272 |
| AREHokkaido | 0.4471 | 0.4131 | 1.082 | 0.2794 |
| ARETohoku | -0.877 | 0.3161 | -2.774 | 0.005639 |
| AREChubu | -0.2376 | 0.2268 | -1.048 | 0.2951 |
| AREKinki | -0.2473 | 0.2183 | -1.133 | 0.2576 |
| AREChugoku | 0.335 | 0.314 | 1.067 | 0.2863 |
| AREShikoku | 0.2931 | 0.564 | 0.5197 | 0.6034 |
| AREKyushu | -0.008788 | 0.2719 | -0.03232 | 0.9742 |
| Df | Sum Sq | Mean Sq | F value | Pr(>F) | |
|---|---|---|---|---|---|
| ARE | 7 | 75.07 | 10.72 | 1.962 | 0.05729 |
| Residuals | 955 | 5219 | 5.465 | NA | NA |
| (1) | |
| (Intercept) | 6.096 *** |
| (0.121) | |
| AREHokkaido | 0.447 |
| (0.413) | |
| ARETohoku | -0.877 ** |
| (0.316) | |
| AREChubu | -0.238 |
| (0.227) | |
| AREKinki | -0.247 |
| (0.218) | |
| AREChugoku | 0.335 |
| (0.314) | |
| AREShikoku | 0.293 |
| (0.564) | |
| AREKyushu | -0.009 |
| (0.272) | |
| N | 963 |
| R2 | 0.014 |
| logLik | -2180.170 |
| AIC | 4378.340 |
| *** p < 0.001; ** p < 0.01; * p < 0.05. | |
library(stargazer)
stargazer(marhap_model, type = "html", align=TRUE, title = "分析結果", out = "marhap_model.xls")
<table style="text-align:center"><caption><strong>分析結果</strong></caption>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left"></td><td><em>Dependent variable:</em></td></tr>
<tr><td></td><td colspan="1" style="border-bottom: 1px solid black"></td></tr>
<tr><td style="text-align:left"></td><td>SUB_HAP</td></tr>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">MARMarried</td><td>1.593<sup>***</sup></td></tr>
<tr><td style="text-align:left"></td><td>(0.145)</td></tr>
<tr><td style="text-align:left"></td><td></td></tr>
<tr><td style="text-align:left">Constant</td><td>5.061<sup>***</sup></td></tr>
<tr><td style="text-align:left"></td><td>(0.111)</td></tr>
<tr><td style="text-align:left"></td><td></td></tr>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">Observations</td><td>963</td></tr>
<tr><td style="text-align:left">R<sup>2</sup></td><td>0.112</td></tr>
<tr><td style="text-align:left">Adjusted R<sup>2</sup></td><td>0.111</td></tr>
<tr><td style="text-align:left">Residual Std. Error</td><td>2.212 (df = 961)</td></tr>
<tr><td style="text-align:left">F Statistic</td><td>120.686<sup>***</sup> (df = 1; 961)</td></tr>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left"><em>Note:</em></td><td style="text-align:right"><sup>*</sup>p<0.1; <sup>**</sup>p<0.05; <sup>***</sup>p<0.01</td></tr>
</table>
分散分析ではある要因によって,ある結果が異なる(ex.地域によって主観的幸福度が異なる)ことはわかりますが,その要因の各因子の間に差があるのかどうか(ex.関東地方と近畿地方で主観的幸福度が異なる)まではわかりません.
この時,t検定を各要因間で繰り返せば...とも思われるかもしれませんが,複数回の仮説検定を行うことは有意水準を水増しすることにつながると言われています.すなわち,帰無仮説が正しい仮説であり採択しなければならない時に,棄却することにつながってしまいます.
そのような事態を避けるために,いくつかの修正案があります.古くには「ボンフェローニの修正」と言われている手法があります.これは比較を行う回数で有意水準を割る,ということを行ないます.例えば,t検定を20回行う場合には,5%水準を前提とすると5/20=0.0025%として評価するものです.しかし,これはあまりに対立仮説に厳しいものであるために,最近ではあまり使われていません.
一方,昨今では「ホルム法」という手法が比較的多く使われています.これはp値の水準が各要因によって異なる基準を適用するものです.最初に,N個の仮説を,p値を小さい順番に並べた上で,一番小さいものの有意水準をNで割ります.これで対立仮説を判断します.対立仮説がここで支持されるのであれば,問題ありません.しかし,帰無仮説が採択されるのであれば,第二順位の対立仮説をの有意水準を(N-1)で割ります...を繰り返します.
この授業では多重比較の枠組みについては「ウィリアムの方法」というのを採用します.これは一つのコントロール群があった上で,その他の要因との差異があるかどうかを検証する枠組みです.例えば,コントロール群となる関東地方に比べて,他の地方の主観的幸福度が高いか低いか,を明らかにすることができます.これは実は皆さんにアウトプットしてもらったモデル式の表から検討することが出来ます.
# install.packages("multcomp", dependencies=T)
library(multcomp)
# install.packages("mixlm", dependencies=T)
library(mixlm)Bonferroni: なかなか良い関数がない&どうやら手で計算したほうが良いらしいので省略.
Simultaneous Tests for General Linear Hypotheses
Multiple Comparisons of Means: Tukey Contrasts
Fit: lm(formula = SUB_HAP ~ ARE, data = exdataset)
Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
Hokkaido - Kanto == 0 0.447112 0.413125 1.082 0.9541
Tohoku - Kanto == 0 -0.876995 0.316105 -2.774 0.0908 .
Chubu - Kanto == 0 -0.237637 0.226845 -1.048 0.9615
Kinki - Kanto == 0 -0.247260 0.218299 -1.133 0.9418
Chugoku - Kanto == 0 0.335025 0.314020 1.067 0.9575
Shikoku - Kanto == 0 0.293144 0.564036 0.520 0.9995
Kyushu - Kanto == 0 -0.008788 0.271909 -0.032 1.0000
Tohoku - Hokkaido == 0 -1.324107 0.491454 -2.694 0.1115
Chubu - Hokkaido == 0 -0.684749 0.439390 -1.558 0.7509
Kinki - Hokkaido == 0 -0.694372 0.435039 -1.596 0.7275
Chugoku - Hokkaido == 0 -0.112088 0.490115 -0.229 1.0000
Shikoku - Hokkaido == 0 -0.153968 0.678042 -0.227 1.0000
Kyushu - Hokkaido == 0 -0.455901 0.464262 -0.982 0.9730
Chubu - Tohoku == 0 0.639358 0.349733 1.828 0.5702
Kinki - Tohoku == 0 0.629735 0.344251 1.829 0.5693
Chugoku - Tohoku == 0 1.212019 0.411659 2.944 0.0567 .
Shikoku - Tohoku == 0 1.170139 0.623691 1.876 0.5367
Kyushu - Tohoku == 0 0.868207 0.380511 2.282 0.2782
Kinki - Chubu == 0 -0.009623 0.264660 -0.036 1.0000
Chugoku - Chubu == 0 0.572661 0.347849 1.646 0.6950
Shikoku - Chubu == 0 0.530781 0.583547 0.910 0.9825
Kyushu - Chubu == 0 0.228848 0.310363 0.737 0.9950
Chugoku - Kinki == 0 0.582284 0.342337 1.701 0.6582
Shikoku - Kinki == 0 0.540404 0.580278 0.931 0.9800
Kyushu - Kinki == 0 0.238472 0.304172 0.784 0.9928
Shikoku - Chugoku == 0 -0.041880 0.622637 -0.067 1.0000
Kyushu - Chugoku == 0 -0.343813 0.378781 -0.908 0.9828
Kyushu - Shikoku == 0 -0.301932 0.602497 -0.501 0.9996
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Adjusted p values reported -- single-step method)
Simultaneous Tests for General Linear Hypotheses
Multiple Comparisons of Means: Dunnett Contrasts
Fit: lm(formula = SUB_HAP ~ ARE, data = exdataset)
Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
Hokkaido - Kanto == 0 0.447112 0.413125 1.082 0.8878
Tohoku - Kanto == 0 -0.876995 0.316105 -2.774 0.0381 *
Chubu - Kanto == 0 -0.237637 0.226845 -1.048 0.9033
Kinki - Kanto == 0 -0.247260 0.218299 -1.133 0.8628
Chugoku - Kanto == 0 0.335025 0.314020 1.067 0.8948
Shikoku - Kanto == 0 0.293144 0.564036 0.520 0.9981
Kyushu - Kanto == 0 -0.008788 0.271909 -0.032 1.0000
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Adjusted p values reported -- single-step method)
Simultaneous Tests for General Linear Hypotheses
Multiple Comparisons of Means: Williams Contrasts
Fit: lm(formula = SUB_HAP ~ ARE, data = exdataset)
Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
C 1 == 0 -0.008788 0.271909 -0.032 1.000
C 2 == 0 0.040619 0.253406 0.160 1.000
C 3 == 0 0.149970 0.213920 0.701 0.842
C 4 == 0 -0.042804 0.174949 -0.245 0.998
C 5 == 0 -0.101892 0.160414 -0.635 0.881
C 6 == 0 -0.191759 0.156315 -1.227 0.478
C 7 == 0 -0.153666 0.154415 -0.995 0.638
(Adjusted p values reported -- single-step method)
オブジェクト<-lm(応答変数 <- 説明変数, data = データセットの名前)
これについて,回帰分析/t検定の時は以下のコードを使っています.
summary(オブジェクト)
これについて,分散分析の時は以下のコードを使っています.
anova(オブジェクト)
“SUB_SAT”は生活満足度,“SUB_SLP”は睡眠満足度に関するデータであった(各10点尺度).これらを応答変数,地域を表す“ARE”を説明変数として,以下の2つの分析を実施せよ.
“SUB_SAT”は生活満足度,“SUB_SLP”は睡眠満足度に関するデータであった(各10点尺度).これらを応答変数,年代を表す“GEN”を説明変数として,以下の2つの分析を実施せよ.
ダウンロードはコチラから
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 主観的幸福度 | SUB_HAP | 現在,あなたはどの程度幸せですか?「とても幸せ」を10点,「とても不幸せ」を0点とすると,何点くらいになると思いますか?* | 0点「とても不幸せ」-10点「とても幸せ」 |
| 生活満足度 | SUB_SAT | あなたは全体として最近の生活にどの程度満足していますか?「とても満足」を10点,「とても不満足」を0点とすると,何点くらいになると思いますか? | 0点「とても不満足」-10点「とても満足」 |
| 生活満足度 | SUB_SLP | あなたは最近,どの程度眠れていますか?「とても眠れている」を10点,「全く眠れていない」を0点とすると,何点くらいになると思いますか? | 0点「全く眠れていない」-10点「とても眠れている」 |
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイントを受け取りました.
そのうち,あなたはBさんに何ポイントかを渡すことができます.
さて,あなたはBさんに何ポイント渡しますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 主観的幸福度 | DIC_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| DG友人条件 | DIC_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| DG他者条件 | DIC_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイントを受け取りました.
そのうち,あなたはBさんとポイントを分け合うことになりました.
あなたは,Bさんに対して分け合うポイントを提案することができます.
あなたは,10ポイントの中から,Bさんに対して分けたポイントを引いた残りを受け取ることができます.
しかし,Bさんがあなたの提案を拒否した場合には,その提案は実現せずに,
お互いポイントをもらえないことになります.
さて,あなたはBさんに何ポイント渡すことを提案しますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 最終提案提案者両親条件 | ULT_PRO_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 最終提案提案者友人条件 | ULT_PRO_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 最終提案提案者他者条件 | ULT_PRO_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
図を見て下さい. あなたはBさんです. AさんはTポイントを10ポイントを受け取りました.
Aさんが,あなたに対して分け合うポイントを提案します.
Aさんは,10ポイントの中から,あなたに対して分けたポイントを引いた残りを受け取ることができます.
しかし,あなたがAさんの提案を拒否した場合には,その提案は実現せずに,
お互いポイントをもらえないことになります.
さて,最低でも何ポイントの提案を受けたら,Aさんの提案を受け入れますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 最終提案応答者両親条件 | ULT_REC_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 最終提案応答者友人条件 | ULT_REC_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 最終提案応答者他者条件 | ULT_REC_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイント持っています.
いくらかをCさんにあずけてください. CさんはあなたからあずかったTポイントを3倍にしてBさんに渡します.
Bさんは手元に渡されたポイントのうち,いくらかをあなたに返します.
この時,あなたはCさんにいくらあずけますか?
ここではBさんが以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 信頼両親条件 | TRU_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 信頼友人条件 | TRU_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 信頼他者条件 | TRU_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 自然運命 | SPN_UNM | 何かの大きな力に自分の運命は動かされているように感じることがある. | 1全くそう思わない-4非常にそう思う |
| 自然感謝 | SPN_THK | 自然などの人間を超えた力に感謝の気持ちを持つことがある. | 1全くそう思わない-4非常にそう思う |
| 自然恐怖 | SPN_FEA | 自然などの人間を超えた力に恐れの気持ちを持つことがある. | 1全くそう思わない-4非常にそう思う |
| 自然生存 | SPN_LIV | 自然などの人間を超えた力によって,生かされていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 自然大切 | SPN_IMP | 自然は大切な存在である. | 1全くそう思わない-4非常にそう思う |
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 第2者被監視感 | KAN_SEC | 日常生活の中で,直接誰か(人間)に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 第3者被監視感 | KAN_THI | 日常生活の中で,監視カメラ等を通じて誰か(人間)に間接的に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 超自然的被監視感 | KAN_SUP | 日常生活の中で,超自然的な存在に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 第2者被監視感 | KAN_PRD | 無機物の中に,人間の表情のようなものを見出すことがある. | 1全くそう思わない-4非常にそう思う |
| 自然大切 | KAN_KYK | 人に対して共感をすることがある. | 1全くそう思わない-4非常にそう思う |
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 死後世界 | DED_SHI | 「死後の世界」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 天国 | DED_TEN | 「天国」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 地獄 | DED_JIG | 「地獄」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 奇跡 | DED_KIS | 「奇跡」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 天罰 | DED_PUN | 「天罰」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
以下の質問についてお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 性衝動 | SEX_IMP,SEX_IMP_num(数値,欠損値有り) | あなたの性衝動はどの程度強いと思いますか?7点満点でお答え下さい.なお,答えたくない方は「8.答えたくない」を選んで下さい. | 全く弱い.2. 弱い.3. どちらかと言えば弱い.4. どちらとも言えない.5. どちらかと言えば強い.6. 強い.7. 非常に強い.8. 答えたくない. |
| 自慰回数 | SEX_MAS,SEX_MAS_nen(年間回数): | あなたはどの程度の頻度でマスターベーションをしていますか?以下の選択肢の中から最も近いものを選んで下さい.なお,答えたくない方は「10. 答えたくない」を選んで下さい. | 1. 経験がない「0」, 2. 年に1回程度「1」, 3. 半年に1回程度「2」, 4. 3ヶ月に1回程度「4」, 5. 1ヶ月に1回程度「12」, 6. 2週に1回程度「26」, 7. 週に1回程度「52」, 8. 週に2-3回程度「130」, 9. 1日に1回程度「365」, 10. それ以上「730」, 11. 答えたくない「NA」 |
| 性交渉回数 | SEX_SEX,SEX_SEX_nen(年間回数) | あなたはどの程度の頻度で性交渉(性行為)をしていますか?以下の選択肢の中から最も近いものを選んで下さい.なお,答えたくない方は「10. 答えたくない」を選んで下さい. | 1. 経験がない「0」, 2. 年に1回程度「1」, 3. 半年に1回程度「2」, 4. 3ヶ月に1回程度「4」, 5. 1ヶ月に1回程度「12」, 6. 2週に1回程度「26」, 7. 週に1回程度「52」, 8. 週に2-3回程度「130」, 9. 1日に1回程度「365」, 10. それ以上「730」, 11. 答えたくない「NA」 |
| 性衝動対象 | SEX_OBJ | あなたの性衝動の対象として当てはまる選択肢を選んで下さい.なお,答えたくない方は「5.答えたくない」を選んで下さい. | 1.異性, 2. 同性,3. 両方,4. その他,5. 答えたくない |
| 天罰 | SEX_NIN,SEX_NIN_cen(中央値) | あなたが性交渉(性行為)をしたことがある人数を教えて下さい.* 性交渉を(性行為)したことがない場合は「0. 0人」を選んで下さい. また,答えたくない方は「12.答えたくない」を選んで下さい. | 1. 0人 「0」, 2. 1人 「1」, 3. 2〜3人 「2.5」, 4. 4〜5人 「4.5」, 5. 5〜7人 「6」, 6. 8〜10人 「9」, 7. 11〜15人 「13」, 8. 16〜20人 「18」, 9. 21〜30人 「25.5」, 10. 31〜40人 「35.5」, 11. 41〜100人 「70.5」, 12. 101人以上 「101」, 13. 答えたくない.「NA」 |
| 性情報開示 | SEX_NNA | 性情報に対して開示しなかった個数 | 上記5つについて答えたくないを選んだ個数 |
あなたのことについて教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 性別 | F_SEX | あなたの性別を教えて下さい. | 1.男性, 2.女性,3.その他 |
| 世代 | F_GEN | あなたの年齢を教えて下さい. | 1. 10代前半, 2. 10代後半, 3. 20代前半, 4. 20代後半, 5. 30代前半, 6. 30代後半, 7. 40代前半, 8. 40代後半, 9. 50代前半, 10. 50代前半, 11. 60代前半, 12. 60代後半, 13. 70代以降 |
| 最終学歴 | F_FGR | あなたの最終学歴を教えて下さい. | 1. 中学校卒業, 2. 高校中退, 3. 高校卒業, 4. 専門学校(短期大学)中退, 5. 専門学校(短期大学)卒業, 6. 大学中退, 7. 大学卒業, 8. 大学院修士課程(博士前期課程)中退, 9. 大学院修士課程(博士前期課程)修了, 10. 大学院博士課程(博士後期課程)中退, 11. 大学院博士課程(博士後期課程)修了 |
| 個人収入 | F_INK,F_INK_cen(中央値,百万円) | あなた個人の年収を教えて下さい. | 0. 0円, 1. 1円〜200万円未満, 2. 200万円以上〜400万円未満, 3. 400万円以上〜600万円未満, 4. 600万円以上〜800万円未満, 5. 800万円以上〜1,000万円未満, 6. 1,000万円以上〜1,200万円未満, 7. 1,200万円以上〜1,500万円未満, 8. 1,500万円以上〜2,000万円未満, 9. 2,000万円以上, 10. わからない |
| 世帯収入 | F_INS,F_INS_cen(中央値,百万円) | あなたの世帯での収入の合計を教えて下さい. | 0. 0円, 1. 1円〜200万円未満, 2. 200万円以上〜400万円未満, 3. 400万円以上〜600万円未満, 4. 600万円以上〜800万円未満, 5. 800万円以上〜1,000万円未満, 6. 1,000万円以上〜1,200万円未満, 7. 1,200万円以上〜1,500万円未満, 8. 1,500万円以上〜2,000万円未満, 9. 2,000万円以上, 10. わからない |
| 回答端末 | F_TAN | あなたが現在回答に使われているケータイ/タブレット/パソコンについて,当てはまるものを選んで下さい. | 1. パソコン(Windows), 2. パソコン(Mac), 3. パソコン(その他), 4. タブレット(Windows), 5. タブレット(iOS,iPad), 6. タブレット(android), 7. タブレット(その他), 8. スマホ(Windows), 9. スマホ(iOS,iPhone), 10. スマホ(android), 11. スマホ(その他), 12. ガラケー,フィーチャーホン, 13. その他 |
| 都道府県 | PRE | あなたのお住まいの県を教えて下さい. | 1. 北海道2. 青森県3. 岩手県4. 宮城県5. 秋田県6. 山形県7. 福島県8. 茨城県9. 栃木県10. 群馬県11. 埼玉県12. 千葉県13. 東京都14. 神奈川県15. 新潟県16. 富山県17. 石川県18. 福井県19. 山梨県20. 長野県21. 岐阜県22. 静岡県23. 愛知県24. 三重県25. 滋賀県26. 京都府27. 大阪府28. 兵庫県29. 奈良県30. 和歌山県31. 鳥取県32. 島根県33. 岡山県34. 広島県35. 山口県36. 徳島県37. 香川県38. 愛媛県39. 高知県40. 福岡県41. 佐賀県42. 長崎県43. 熊本県44. 大分県45. 宮崎県46. 鹿児島県47. 沖縄県 |
| 地域 | ARE | 都道府県から地域に変換 | 北海道:1. 北海道,東北地方:2. 青森県3. 岩手県4. 宮城県5. 秋田県6. 山形県7. 福島県,関東地方:8. 茨城県9. 栃木県10. 群馬県11. 埼玉県12. 千葉県13. 東京都14. 神奈川県,中部地方:15. 新潟県16. 富山県17. 石川県18. 福井県19. 山梨県20. 長野県21. 岐阜県22. 静岡県23. 愛知県24. 三重県,近畿地方:25. 滋賀県26. 京都府27. 大阪府28. 兵庫県29. 奈良県30. 和歌山県,中国地方:31. 鳥取県32. 島根県33. 岡山県34. 広島県35. 山口県,四国地方:36. 徳島県37. 香川県38. 愛媛県39. 高知県,九州地方:40. 福岡県41. 佐賀県42. 長崎県43. 熊本県44. 大分県45. 宮崎県46. 鹿児島県47. 沖縄県 |
| 未既婚 | MAR | あなたはご結婚されていますか? | NotMarried:未婚,Married:既婚 |
| 子の有無 | CHI | あなたはお子さんがいらっしゃいますか? | NoChild:いない,Child:いる |
---
title: "データ解析論I第10講"
output:
flexdashboard::flex_dashboard:
vertical-layout: scroll
orientation: columns
source_code: embed
theme: journal
toc: true
toc_depth: 2
fig_mobile: true
highlight: pygments
css: styles_customized.css
---
```{r setup, include=FALSE}
library(readr)
library(ggplot2)
library(dplyr)
exdataset <- read_csv("/Users/akira/Dropbox/Education/2019MEIJI/[3_Wed2]Data_Analytics/analysis/data/exdataset.csv")
## Reordering exdataset$ARE
exdataset$ARE <- factor(exdataset$ARE, levels=c("Kanto", "Hokkaido", "Tohoku", "Chubu", "Kinki", "Chugoku", "Shikoku", "Kyushu"))
## Reordering exdataset$MAR
exdataset$MAR <- factor(exdataset$MAR, levels=c("NotMarried", "Married"))
## Reordering exdataset$CHI
exdataset$CHI <- factor(exdataset$CHI, levels=c("NoChild", "Child"))
```
# 講義資料
## メイン資料 {.tabset .tabset-fade}
### 今日の資料はコチラから.
スマホで見る方は**QRコード**を読み込んでください
### 前回の復習
#### 質問項目の作成
* *[こちらのリスト](https://docs.google.com/spreadsheets/d/1TNtBJdar2XiVRUFFK_5aTY-zReMA44iqWLXdx6L56HY/edit#gid=0)*に書き込みましょう.
- 質問項目リストを完成させましょう.
* 以下コードを各自でコピペしておいてください.
```
library(readr)
library(ggplot2)
library(dplyr)
exdataset <- read_csv("../data/exdataset.csv")
## Reordering exdataset$ARE
exdataset$ARE <- factor(exdataset$ARE, levels=c("Kanto", "Hokkaido", "Tohoku", "Chubu", "Kinki", "Chugoku", "Shikoku", "Kyushu"))
## Reordering exdataset$MAR
exdataset$MAR <- factor(exdataset$MAR, levels=c("NotMarried", "Married"))
## Reordering exdataset$CHI
exdataset$CHI <- factor(exdataset$CHI, levels=c("NoChild", "Child"))
```
#### t検定
t検定とは2群の「平均値」を比較する方法です.しかし,実はこれも一般線形モデルの枠組みの中で考えることが出来ます.ここではその考え方について説明します.そこには「ダミー変数」という考え方が必要になります.
##### ダミー変数とは
一般線形モデルではこんなモデル式から考える,というような話をしたかと思います.
$$Y_i=\beta_1 X_1 + \alpha+\epsilon_i $$
回帰分析ではY_iとX_1が数値データだった場合を示していました.しかし,例えばX_1に入れたいのが未婚者か既婚者,という因子データだったとします.この場合は,未婚者に対して0,既婚者に対して1という数字を割り当てると以下のように理解することができます.
* 0を割り振られた未婚者の場合
数式の$X_1$に0を代入しましょう.
$$Y_i=\alpha+\epsilon_i $$
こうすると,係数がなくなってしまいました.従って切片のみになります.
* 1を割り振られた既婚者の場合
数式の$X_1$に1を代入しましょう.
$$Y_i=\beta_1 + \alpha+\epsilon_i $$
こうすると,$X_1$の係数のみが増えています.したがって,0を代入した未婚者に比べて,既婚者の方が$\beta_1$の分だけ変化していることがわかります.
このように,0か1の数字を入れてあげると0を入れられたグループと1を割り振られたグループでどれだけ差があるのか,ということを評価することができます.
そして,その「差」がどの程度あるのかも比較することができます.ここでは,主観的幸福度に未婚者と既婚者の間に差があるのか否かを,先ほどと同じような流れで考えていきましょう.
##### 仮説を立てる
t検定に当たるのは2つの群に差があるのか否か,です.「差がある」を対立仮説,「差があるとはいえない」を帰無仮説とします.したがって,以下のような仮説を立てることが出来ます.
* 対立仮説:未婚者と既婚者の主観的幸福度に差がある.
* 帰無仮説:未婚者と既婚者の主観的幸福度に差があるとはいえない.
#####平均値をプロットする
はじめに,分析対象となるデータを読み込んでおきましょう.
これは前回のをそのままコピペしていただいてかまいません.
さて,例によってggplotguiを使いましょう.
以下のコードはConsole(コンソール)に直接打ち込みます.
```
library(ggplotgui)
ggplot_shiny(exdataset)
```
そうすると新しいウィンドウが開きます.
以下の通りの作業をしましょう.
* ggplotタブへ
* "*Type of graph:*"は"*Dot + Error*",Y-variableは"*SUB_HAP*",X-variableは"*MAR*"を設定
* "*Confidence Interval:*"を95%にする.
* R-codeタブへ行って,以下のコードのうち,真ん中のみを以下にする.
-また,コード内の*df*を*dataset*に変える.
```{r}
# You need the following package(s):
library("ggplot2")
# The code below will generate the graph:
graph <- ggplot(exdataset, aes(x = MAR, y = SUB_HAP)) +
geom_point(stat = 'summary', fun.y = 'mean') +
geom_errorbar(stat = 'summary', fun.data = 'mean_se',
width=0, fun.args = list(mult = 1.96)) +
theme_bw()
graph
```
```{r}
# If you want the plot to be interactive,
# you need the following package(s):
library("plotly")
ggplotly(graph)
```
0は未婚者を,1は既婚者を示しています.
これも同様に,本当に差があるのかどうかは,感覚的には明らかになっても科学的な根拠がありません.同じように検定をして確かめてみましょう.
##### t検定をやってみる
```{r echo=TRUE}
#"hapsat_model"というオブジェクトに,分析モデルを代入する.
marhap_model<-lm(SUB_HAP ~ MAR, data = exdataset)
#分析結果の要約を出力する
summary(marhap_model)
```
さて,この分析結果の見方は基本的なところは回帰分析と一緒です.特に着目すべきはCoefficientsのところなので,こちらについて説明します.
```
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.0609 0.1115 45.41 <2e-16 ***
## MAR 1.5929 0.1450 10.99 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
```
この結果について,またモデル式と共に説明します.この結果は$\alpha$ が5.0609,$\beta$ が1.5929という結果でした.したがって,モデル式は以下のように示すことができます.
$$Y_i=1.59291 X_1 + 5.0609+\epsilon_i $$
まずは係数について説明します.これは未婚者の場合と既婚者の場合について考えたいと思います.
###### 未婚者の場合
未婚者の場合はX_1が0でした.したがって,以下のように示されます.
$$Y_i= 5.0609+\epsilon_i $$
すなわち,未婚者の平均値の予測は5.0509であると推定されます.
###### 既婚者の場合
既婚者の場合はX_1が1でした.したがって,以下のように示されます.
$$Y_i=1.59291 + 5.0609+\epsilon_i $$
したがって,平均値は6.65381であると推定されます.
また,これらの推定値の妥当性はp値によって推定されます.いずれの結果についても0.001%以下であるためにこの結果は統計的にも明らかな差があると理解できます.したがって,未婚者に比べて,既婚者の主観的幸福度は明らかに高いと理解することができます.この結果を簡単にまとめましょう.
##### 結果をきれいに表記しよう.
* パッケージpanderの中にある関数panderを使うと,結果がわかりやすく表示されます.
```{r echo=TRUE}
library(pander)
pander(marhap_model)
```
* 他にもパッケージhuxtableの中にhuxregという関数があります.
```{r echo=TRUE}
library(huxtable)
huxreg(marhap_model)
```
* パッケージcoefplotを使って,各係数の大きさをグラフで示しておこう.
- 特にこれから重回帰分析などを学ぶ上で知っておくと便利です.
```{r echo=TRUE}
library(coefplot)
# インストールした覚えがない場合は`install.packages("coefplot")`をしておきましょう.
coefplot(marhap_model)
```
* パッケージstargazerの中にあるstargazerという関数を使うとxls形式で出力できます.
```{r echo=TRUE}
library(stargazer)
stargazer(marhap_model, type = "html", align=TRUE, title = "分析結果", out = "marhap_model.xls")
```
* 作業フォルダの中に"marhap_model.xls"というファイルができていますので,そちらを開いてください.
- 注意画面が出てきますが,「気にせずに開く」を選んでください.
#### 普通のt検定
今までは一般線形モデルの枠組みからt検定の紹介を,すなわちダミー回帰分析の1つとしてのt検定を紹介しました.一方で,普通のt検定は以下のように行うことができます.
* ここだけの話.
最近はt検定にもいろいろな方法が提案されています.従来は等分散性を検定するF検定を実施し後に,等分散を仮定したスチューデント(Student)のt検定を行ったり,不等分散を仮定したウェルチ(Welch)のt検定を実施する,ということが行われてきました.
しかしながら,2回検定を行うことは「検定の多重性」の観点から問題ではないか,という指摘もあったりします.
そこで,最近ではF検定を実施せずに いきなりウェルチのt検定を行うことが多くなっています.
その場合は,以下のように記述することになります.
##### ウェルチのt検定
```{r echo=TRUE}
t.testmodel<-t.test(SUB_HAP ~ MAR, data = exdataset)
pander(t.testmodel)
```
##### 参考:スチューデントのt検定
```{r echo=TRUE}
t.testmodel<-t.test(SUB_HAP ~ MAR, data = exdataset, var.equal = T)
pander(t.testmodel)
```
ちなみに,スチューデントのt検定と一般線形モデルにおけるダミー変数を用いたt検定は結果が一致します.
これは一般線形モデルが等分散性を仮定していることによります.
### 今日のタスク
#### 復習
みなさんには分析にRの関数,"lm"というのを使ってもらっています.授業では,以下の通りに使っています.イメージとしては,グラフを想像してもらって,説明変数は「X軸」,応答変数は「Y軸」をイメージしてもらうとわかりやすいかと思います.
```
オブジェクト<-lm(応答変数 <- 説明変数, data = データセットの名前)
これについて,回帰分析/t検定の時は以下のコードを使っています.
summary(オブジェクト)
これについて,分散分析の時は以下のコードを使っています.
anova(オブジェクト)
```
#### 1要因分散分析
#### 分散分析とは
分散分析とは,「3群以上の平均値の差があるかどうか」を比較・分析するための方法です.ここでは「1元配置分散分析」および「2元配置分散分析」というものについて説明します.いずれについても,説明変数が因子データ,応答変数が数値(順序)データとなります.
* 1元配置分散分析:「地域によって,主観的幸福度が異なる」などのような,1つの要因によって影響を受けるかどうかを分析する手法です.
* 2元配置分散分析:「地域と未婚・既婚によって主観的幸福度が異なる」,「地域と子の有無によって主観的幸福度が異なる」などのような,2つの要因によって影響を受けるかどうかを分析する手法です.
分散分析を一般線形モデルの枠組みで説明すると,以下のように理解することができます.ここでは,「3つの群の影響を受ける」場合について,モデル式を元に説明したいと思います.
$$ Y_i=\beta_1 X_1 +\beta_2 X_2 + \alpha+\epsilon_i $$
このモデルでは,$ X_1 $と $ X_2 $ はそれぞれ(1, 0)の値を取る「ダミー変数」です.しかし,これでは$ \beta $ が2つしかありません.しかし,これだけで3つの群を表すことができます.以下には3つの条件についてモデル式を書き入れてあげたいと思います.
* $ X_1 =1 $ と$ X_2 =0 $の場合
$$ Y_i=\beta_1 X_1 + \alpha+\epsilon_i $$
- この場合,ある因子$X_1$ によって,傾きが変化することを示しています.
* $ X_1 =0 とX_2 =1 $の場合
$$ Y_i=\beta_2 X_2 + \alpha+\epsilon_i $
- この場合,ある因子$X_2$ によって,傾きが変化することを示しています.
* $ X_1 =0 とX_2 =0 $の場合
$$ Y_i= \alpha+\epsilon_i $$
- この場合,全ての要因が影響しない場合(何らかの基準となる点)の値を示していることになります.
このモデルについて,平均値が異なるかどうかを調べます.特に,分散分析の場合は「分散分析表」と呼ばれるものを出して評価してあげます.
#### 分散分析の例
* テストの点数がクラスによって異なる.
- $ X_1 =1 $と$ X_2 =0 $:Bクラス
- $ X_1 =0 $と$ X_2 =1 $:Cクラス
- $ X_1 =0 $と$ X_2 =0 $:Aクラス
* このモデル式からわかること:Aクラスに比べてBクラス/Cクラスの得点がどう変化するか
#### 仮説を立てる
さて,それでは仮説を立ててみましょう.今回分析するテーマは「主観的幸福度(SUB_HAP)が地域(SUB_ARE)によって異なる」かどうかを分析します.一要因分散分析の場合は以下のような仮説を立てます.
* 対立仮説:主観的幸福度の平均値は地域によって異なる.
* 帰無仮説:主観的幸福度の平均値は地域によって異なるとは言えない.
この2つの仮説のもとに分析を行ないます.
##### 分析のモデル式
今回の分析には,以下のモデルを前提とします.
$$(主観的幸福度)=\beta_1 (北海道ダミー) +\beta_2 (東北ダミー) +\beta_3 (中部ダミー)+\beta_4 (近畿ダミー) +\beta_5 (中国ダミー)+\beta_6 (四国ダミー)+\beta_7 (九州ダミー) + \alpha+\epsilon_i $$
なお,このモデルではそれぞれの値は1か0の値しか取りません.
例えば,東北地方のデータである場合には,東北ダミーが1,それ以外のダミー変数は0を取ります.また,すべてのダミー変数が0の場合はコントロール群となる関東地方を示しています.
#### 平均値をプロットする
さて,例によってggplotguiを使いましょう.
以下のコードはConsole(コンソール)に直接打ち込みます.
```
library(ggplotgui)
ggplot_shiny()
```
そうすると新しいウィンドウが開きます.
以下の通りの作業をしましょう.
* "*Data upload*"をクリック
* datasetをコピーする
* "*Paste Data*"にペーストをする
* ggplotタブへ
* "*Type of graph:*"は"*Dot + Error*",Y-variableは"*SUB_HAP*",X-variableは"*ARE*"を設定
* "*Confidence Interval:*"を95%にする.
* R-codeタブへ行って,以下のコードのうち,真ん中のみを以下にする.
-また,コード内の*df*を*dataset*に変える.
```{r echo=TRUE}
# You need the following package(s):
library("ggplot2")
# The code below will generate the graph:
graph <- ggplot(exdataset, aes(x = ARE, y = SUB_HAP)) +
geom_point(stat = 'summary', fun.y = 'mean') +
geom_errorbar(stat = 'summary', fun.data = 'mean_se',
width=0, fun.args = list(mult = 1.96)) +
theme_bw()
```
そうすると,こんなグラフが算出されます.
```{r echo=TRUE}
graph
```
このグラフを見る限り,地域ごとに差があるかどうかはわかりません.以前,平均値を算出してみたことがありましたが,今回はそれぞれが「統計的に差がある」ということが言えるかどうかを考えたいと思います.
%分散分析表の読み方をもう少し説明する.
##分散分析をやってみる
さて,分散分析をしてみましょう.
```{r echo=TRUE}
arehap_model<-lm(SUB_HAP ~ ARE, data = exdataset)#"hapsat_model"というオブジェクトに,分析モデルを代入する.
anova(arehap_model)#分散分析表
aov(arehap_model) # 原初的な分散分析
summary(aov(arehap_model)) # 分散分析表
summary(arehap_model) #分析結果の要約を出力する
```
この分散分析表の結果より以下のように結果を導き出すことが出来ます.
##### 書き方
主観的幸福度は地域によって異なるかを分析した.その結果,F(7, 955)=1.9623(p< .10)であり,有意傾向にあることが示されている.したがって,主観的幸福度は居住地域によって異なる傾向にあることが示されている(モデル式の結果を入れてあげると良いでしょう).
さらに,モデル式による分析結果を出力しました.この結果が示しているのは以下のようなことです.
$$ (主観的幸福度)=0.447112*北海道-0.876995*東北 $$
$$ -0.237637*中部-0.247260*近畿 $$
$$ +0.335025*中国+0.293144*四国 $$
$$ -0.008788*九州+6.095745 + \epsilon_i $$
#### 分散分析表の読み方
分散分析表とは,分散分析の結果を示すものです."Df"は自由度を示しています. "Sum Sq"は平方和であり,"Mean Sq"は平均平方,"F value"はF値であり, "Pr(|F| )"はp値を示しています.ここでは細かい読み方については説明しませんので,様々な本を参考にしていただければ幸いです.
結果を文章にして書くのであれば,このように書けます.
今度はモデル式についても同じように出力してあげましょう.回帰分析やt検定と同じです.
##### 結果をきれいに表記しよう.
* パッケージpanderの中にある関数panderを使うと,結果がわかりやすく表示されます.
```{r echo=TRUE}
library(pander)
pander(arehap_model)
pander(anova(arehap_model))
```
* 他にもパッケージhuxtableの中にhuxregという関数があります.
```{r echo=TRUE}
library(huxtable)
huxreg(arehap_model)
```
* パッケージcoefplotを使って,各係数の大きさをグラフで示しておこう.
- 特にこれから重回帰分析などを学ぶ上で知っておくと便利です.
```{r echo=TRUE}
library(coefplot)
# インストールした覚えがない場合は`install.packages("coefplot")`をしておきましょう.
coefplot(arehap_model)
```
* パッケージstargazerの中にあるstargazerという関数を使うとxls形式で出力できます.
```{r echo=TRUE}
library(stargazer)
stargazer(marhap_model, type = "html", align=TRUE, title = "分析結果", out = "marhap_model.xls")
```
#### 多重比較
分散分析ではある要因によって,ある結果が異なる(ex.地域によって主観的幸福度が異なる)ことはわかりますが,その要因の各因子の間に差があるのかどうか(ex.関東地方と近畿地方で主観的幸福度が異なる)まではわかりません.
この時,t検定を各要因間で繰り返せば...とも思われるかもしれませんが,複数回の仮説検定を行うことは有意水準を水増しすることにつながると言われています.すなわち,帰無仮説が正しい仮説であり採択しなければならない時に,棄却することにつながってしまいます.
そのような事態を避けるために,いくつかの修正案があります.古くには「ボンフェローニの修正」と言われている手法があります.これは比較を行う回数で有意水準を割る,ということを行ないます.例えば,t検定を20回行う場合には,5%水準を前提とすると5/20=0.0025%として評価するものです.しかし,これはあまりに対立仮説に厳しいものであるために,最近ではあまり使われていません.
一方,昨今では「ホルム法」という手法が比較的多く使われています.これはp値の水準が各要因によって異なる基準を適用するものです.最初に,N個の仮説を,p値を小さい順番に並べた上で,一番小さいものの有意水準をNで割ります.これで対立仮説を判断します.対立仮説がここで支持されるのであれば,問題ありません.しかし,帰無仮説が採択されるのであれば,第二順位の対立仮説をの有意水準を(N-1)で割ります...を繰り返します.
この授業では多重比較の枠組みについては「ウィリアムの方法」というのを採用します.これは一つのコントロール群があった上で,その他の要因との差異があるかどうかを検証する枠組みです.例えば,コントロール群となる関東地方に比べて,他の地方の主観的幸福度が高いか低いか,を明らかにすることができます.これは実は皆さんにアウトプットしてもらったモデル式の表から検討することが出来ます.
#### 多重比較の方法
* はじめに:多重比較を実施するためにはmultcompというパッケージが必要になります.
```{r echo=TRUE}
# install.packages("multcomp", dependencies=T)
library(multcomp)
# install.packages("mixlm", dependencies=T)
library(mixlm)
```
* Bonferroni:
なかなか良い関数がない&どうやら手で計算したほうが良いらしいので省略.
* Tukey
```{r echo=TRUE}
summary(glht(arehap_model, linfct = mcp(ARE="Tukey")))
```
* Dunnet
```{r echo=TRUE}
summary(glht(arehap_model, linfct = mcp(ARE="Dunnet")))
```
* Williams
```{r echo=TRUE}
summary(glht(arehap_model, linfct = mcp(ARE="Williams")))
```
### 今日のTake Home Messages
#### 分散分析(一般線形モデルによる分散分析モデルによる分析)
* 一般線形モデルによる分散分析モデル
- ダミー変数が複数あるような状況を前提とする.
```
オブジェクト<-lm(応答変数 <- 説明変数, data = データセットの名前)
これについて,回帰分析/t検定の時は以下のコードを使っています.
summary(オブジェクト)
これについて,分散分析の時は以下のコードを使っています.
anova(オブジェクト)
```
### Rでデータを扱う時に注意すべきこと
* 必ず数字/文字は半角で入力する.
* 日本語は使わずにローマ字を使用する.
* コメントアウト(コードではなく,関係ないメモを入れること)をするときは半角の「#」から始める.
- メモする内容は全角でもよい.
* ファイル名およびパスには決して全角の文字(ひらがな,カタカナ,漢字,全角スペースなど)を入れてはいけない.
- 半角英数字だけにする.
* 慌てずに落ち着いて操作すれば,決して難しくない.
- 1つずつ落ち着いて作業することを心がける.
* 「わからない」ことを恐れない
- 周りの友人に聞いたり,教員に確認したりしよう.
* 文字化け対策に**[こちら](https://docs.google.com/document/d/1CYF6LeFeGV9dTWHGuznkO0Tm4RnhAu2KatdSqFn7bmU/edit)** のp8以降を確認して設定しよう.
# 演習問題
## 問題 {.tabset .tabset-fade}
### 問題
#### 演習問題1
"SUB_SAT"は生活満足度,"SUB_SLP"は睡眠満足度に関するデータであった(各10点尺度).これらを応答変数,地域を表す"ARE"を説明変数として,以下の2つの分析を実施せよ.
* 生活満足度の地域差を分析せよ.
* 睡眠満足度の地域差を分析せよ.
#### 演習問題2
"SUB_SAT"は生活満足度,"SUB_SLP"は睡眠満足度に関するデータであった(各10点尺度).これらを応答変数,年代を表す"GEN"を説明変数として,以下の2つの分析を実施せよ.
* 習慣的幸福度の年代差を分析せよ.
* 生活満足度の年代差を分析せよ..
* 睡眠満足度の年代差を分析せよ.
#### リアクションペーパー:
* 授業で学んだことおよび感想を下記リンクからお答えください.
**[リアクションペーパー](https://forms.gle/jhMGgdhyb3sMgpWm7)**
### ヒント
* パッケージdplyrの関数filterを使います.
* ある列の中にあるデータの名前を個別に指定する時には""(ダブルクォーテーション)で囲います.
```{r}
```
# データの概要
### データ概要
ダウンロードは**[コチラ](https://akrgt.github.io/2019DA/data/exdataset.csv)**から
```{r}
library(DT)
DT::datatable(exdataset)
```
### 変数名リスト
#### 主観的指標
| 項目名 | データタイトル | 質問項目 | 回答 |
| ------------ | -------------- | ------------------------------------------------------------ | ------------------------------------------------ |
| 主観的幸福度 | SUB_HAP | 現在,あなたはどの程度幸せですか?「とても幸せ」を10点,「とても不幸せ」を0点とすると,何点くらいになると思いますか?* | 0点「とても不幸せ」-10点「とても幸せ」 |
| 生活満足度 | SUB_SAT | あなたは全体として最近の生活にどの程度満足していますか?「とても満足」を10点,「とても不満足」を0点とすると,何点くらいになると思いますか? | 0点「とても不満足」-10点「とても満足」 |
| 生活満足度 | SUB_SLP | あなたは最近,どの程度眠れていますか?「とても眠れている」を10点,「全く眠れていない」を0点とすると,何点くらいになると思いますか? | 0点「全く眠れていない」-10点「とても眠れている」 |
#### 独裁者ゲーム
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイントを受け取りました.
そのうち,あなたはBさんに何ポイントかを渡すことができます.
さて,あなたはBさんに何ポイント渡しますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ------------ | -------------- | ----------------------------- | -------------------- |
| 主観的幸福度 | DIC_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| DG友人条件 | DIC_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| DG他者条件 | DIC_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
#### 最終提案ゲーム_提案者
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイントを受け取りました.
そのうち,あなたはBさんとポイントを分け合うことになりました.
あなたは,Bさんに対して分け合うポイントを提案することができます.
あなたは,10ポイントの中から,Bさんに対して分けたポイントを引いた残りを受け取ることができます.
しかし,Bさんがあなたの提案を拒否した場合には,その提案は実現せずに,
お互いポイントをもらえないことになります.
さて,あなたはBさんに何ポイント渡すことを提案しますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ---------------------- | -------------- | ----------------------------- | -------------------- |
| 最終提案提案者両親条件 | ULT_PRO_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 最終提案提案者友人条件 | ULT_PRO_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 最終提案提案者他者条件 | ULT_PRO_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
#### 最終提案ゲーム_応答者
図を見て下さい.
あなたはBさんです. AさんはTポイントを10ポイントを受け取りました.
Aさんが,あなたに対して分け合うポイントを提案します.
Aさんは,10ポイントの中から,あなたに対して分けたポイントを引いた残りを受け取ることができます.
しかし,あなたがAさんの提案を拒否した場合には,その提案は実現せずに,
お互いポイントをもらえないことになります.
さて,最低でも何ポイントの提案を受けたら,Aさんの提案を受け入れますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ---------------------- | -------------- | ----------------------------- | -------------------- |
| 最終提案応答者両親条件 | ULT_REC_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 最終提案応答者友人条件 | ULT_REC_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 最終提案応答者他者条件 | ULT_REC_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
#### 信頼ゲーム
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイント持っています.
いくらかをCさんにあずけてください. CさんはあなたからあずかったTポイントを3倍にしてBさんに渡します.
Bさんは手元に渡されたポイントのうち,いくらかをあなたに返します.
この時,あなたはCさんにいくらあずけますか?
ここではBさんが以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ------------ | -------------- | ----------------------------- | -------------------- |
| 信頼両親条件 | TRU_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 信頼友人条件 | TRU_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 信頼他者条件 | TRU_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
#### 自然関連
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
| -------- | -------------- | ------------------------------------------------------------ | --------------------------------- |
| 自然運命 | SPN_UNM | 何かの大きな力に自分の運命は動かされているように感じることがある. | 1全くそう思わない-4非常にそう思う |
| 自然感謝 | SPN_THK | 自然などの人間を超えた力に感謝の気持ちを持つことがある. | 1全くそう思わない-4非常にそう思う |
| 自然恐怖 | SPN_FEA | 自然などの人間を超えた力に恐れの気持ちを持つことがある. | 1全くそう思わない-4非常にそう思う |
| 自然生存 | SPN_LIV | 自然などの人間を超えた力によって,生かされていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 自然大切 | SPN_IMP | 自然は大切な存在である. | 1全くそう思わない-4非常にそう思う |
| | | | |
#### 監視
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ---------------- | -------------- | ------------------------------------------------------------ | --------------------------------- |
| 第2者被監視感 | KAN_SEC | 日常生活の中で,直接誰か(人間)に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 第3者被監視感 | KAN_THI | 日常生活の中で,監視カメラ等を通じて誰か(人間)に間接的に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 超自然的被監視感 | KAN_SUP | 日常生活の中で,超自然的な存在に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 第2者被監視感 | KAN_PRD | 無機物の中に,人間の表情のようなものを見出すことがある. | 1全くそう思わない-4非常にそう思う |
| 自然大切 | KAN_KYK | 人に対して共感をすることがある. | 1全くそう思わない-4非常にそう思う |
| | | | |
#### 死後
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
| -------- | -------------- | -------------------------------------- | --------------------------------- |
| 死後世界 | DED_SHI | 「死後の世界」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 天国 | DED_TEN | 「天国」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 地獄 | DED_JIG | 「地獄」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 奇跡 | DED_KIS | 「奇跡」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 天罰 | DED_PUN | 「天罰」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| | | | |
#### 性行動
以下の質問についてお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ---------- | ---------------------------------------- | ------------------------------------------------------------ | ------------------------------------------------------------ |
| 性衝動 | SEX_IMP,SEX_IMP_num(数値,欠損値有り) | あなたの性衝動はどの程度強いと思いますか?7点満点でお答え下さい.なお,答えたくない方は「8.答えたくない」を選んで下さい. | 全く弱い.2. 弱い.3. どちらかと言えば弱い.4. どちらとも言えない.5. どちらかと言えば強い.6. 強い.7. 非常に強い.8. 答えたくない. |
| 自慰回数 | SEX_MAS,SEX_MAS_nen(年間回数): | あなたはどの程度の頻度でマスターベーションをしていますか?以下の選択肢の中から最も近いものを選んで下さい.なお,答えたくない方は「10. 答えたくない」を選んで下さい. | 1. 経験がない「0」, 2. 年に1回程度「1」, 3. 半年に1回程度「2」, 4. 3ヶ月に1回程度「4」, 5. 1ヶ月に1回程度「12」, 6. 2週に1回程度「26」, 7. 週に1回程度「52」, 8. 週に2-3回程度「130」, 9. 1日に1回程度「365」, 10. それ以上「730」, 11. 答えたくない「NA」 |
| 性交渉回数 | SEX_SEX,SEX_SEX_nen(年間回数) | あなたはどの程度の頻度で性交渉(性行為)をしていますか?以下の選択肢の中から最も近いものを選んで下さい.なお,答えたくない方は「10. 答えたくない」を選んで下さい. | 1. 経験がない「0」, 2. 年に1回程度「1」, 3. 半年に1回程度「2」, 4. 3ヶ月に1回程度「4」, 5. 1ヶ月に1回程度「12」, 6. 2週に1回程度「26」, 7. 週に1回程度「52」, 8. 週に2-3回程度「130」, 9. 1日に1回程度「365」, 10. それ以上「730」, 11. 答えたくない「NA」 |
| 性衝動対象 | SEX_OBJ | あなたの性衝動の対象として当てはまる選択肢を選んで下さい.なお,答えたくない方は「5.答えたくない」を選んで下さい. | 1.異性, 2. 同性,3. 両方,4. その他,5. 答えたくない |
| 天罰 | SEX_NIN,SEX_NIN_cen(中央値) | あなたが性交渉(性行為)をしたことがある人数を教えて下さい.* 性交渉を(性行為)したことがない場合は「0. 0人」を選んで下さい. また,答えたくない方は「12.答えたくない」を選んで下さい. | 1. 0人 「0」, 2. 1人 「1」, 3. 2〜3人 「2.5」, 4. 4〜5人 「4.5」, 5. 5〜7人 「6」, 6. 8〜10人 「9」, 7. 11〜15人 「13」, 8. 16〜20人 「18」, 9. 21〜30人 「25.5」, 10. 31〜40人 「35.5」, 11. 41〜100人 「70.5」, 12. 101人以上 「101」, 13. 答えたくない.「NA」 |
| 性情報開示 | SEX_NNA | 性情報に対して開示しなかった個数 | 上記5つについて答えたくないを選んだ個数 |
| | | | |
#### フェイスシート
あなたのことについて教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
| -------- | -------------------------------- | ------------------------------------------------------------ | ------------------------------------------------------------ |
| 性別 | F_SEX | あなたの性別を教えて下さい. | 1.男性, 2.女性,3.その他 |
| 世代 | F_GEN | あなたの年齢を教えて下さい. | 1. 10代前半, 2. 10代後半, 3. 20代前半, 4. 20代後半, 5. 30代前半, 6. 30代後半, 7. 40代前半, 8. 40代後半, 9. 50代前半, 10. 50代前半, 11. 60代前半, 12. 60代後半, 13. 70代以降 |
| 最終学歴 | F_FGR | あなたの最終学歴を教えて下さい. | 1. 中学校卒業, 2. 高校中退, 3. 高校卒業, 4. 専門学校(短期大学)中退, 5. 専門学校(短期大学)卒業, 6. 大学中退, 7. 大学卒業, 8. 大学院修士課程(博士前期課程)中退, 9. 大学院修士課程(博士前期課程)修了, 10. 大学院博士課程(博士後期課程)中退, 11. 大学院博士課程(博士後期課程)修了 |
| 個人収入 | F_INK,F_INK_cen(中央値,百万円) | あなた個人の年収を教えて下さい. | 0. 0円, 1. 1円〜200万円未満, 2. 200万円以上〜400万円未満, 3. 400万円以上〜600万円未満, 4. 600万円以上〜800万円未満, 5. 800万円以上〜1,000万円未満, 6. 1,000万円以上〜1,200万円未満, 7. 1,200万円以上〜1,500万円未満, 8. 1,500万円以上〜2,000万円未満, 9. 2,000万円以上, 10. わからない |
| 世帯収入 | F_INS,F_INS_cen(中央値,百万円) | あなたの世帯での収入の合計を教えて下さい. | 0. 0円, 1. 1円〜200万円未満, 2. 200万円以上〜400万円未満, 3. 400万円以上〜600万円未満, 4. 600万円以上〜800万円未満, 5. 800万円以上〜1,000万円未満, 6. 1,000万円以上〜1,200万円未満, 7. 1,200万円以上〜1,500万円未満, 8. 1,500万円以上〜2,000万円未満, 9. 2,000万円以上, 10. わからない |
| 回答端末 | F_TAN | あなたが現在回答に使われているケータイ/タブレット/パソコンについて,当てはまるものを選んで下さい. | 1. パソコン(Windows), 2. パソコン(Mac), 3. パソコン(その他), 4. タブレット(Windows), 5. タブレット(iOS,iPad), 6. タブレット(android), 7. タブレット(その他), 8. スマホ(Windows), 9. スマホ(iOS,iPhone), 10. スマホ(android), 11. スマホ(その他), 12. ガラケー,フィーチャーホン, 13. その他 |
| 都道府県 | PRE | あなたのお住まいの県を教えて下さい. | 1. 北海道2. 青森県3. 岩手県4. 宮城県5. 秋田県6. 山形県7. 福島県8. 茨城県9. 栃木県10. 群馬県11. 埼玉県12. 千葉県13. 東京都14. 神奈川県15. 新潟県16. 富山県17. 石川県18. 福井県19. 山梨県20. 長野県21. 岐阜県22. 静岡県23. 愛知県24. 三重県25. 滋賀県26. 京都府27. 大阪府28. 兵庫県29. 奈良県30. 和歌山県31. 鳥取県32. 島根県33. 岡山県34. 広島県35. 山口県36. 徳島県37. 香川県38. 愛媛県39. 高知県40. 福岡県41. 佐賀県42. 長崎県43. 熊本県44. 大分県45. 宮崎県46. 鹿児島県47. 沖縄県 |
| 地域 | ARE | 都道府県から地域に変換 | 北海道:1. 北海道,東北地方:2. 青森県3. 岩手県4. 宮城県5. 秋田県6. 山形県7. 福島県,関東地方:8. 茨城県9. 栃木県10. 群馬県11. 埼玉県12. 千葉県13. 東京都14. 神奈川県,中部地方:15. 新潟県16. 富山県17. 石川県18. 福井県19. 山梨県20. 長野県21. 岐阜県22. 静岡県23. 愛知県24. 三重県,近畿地方:25. 滋賀県26. 京都府27. 大阪府28. 兵庫県29. 奈良県30. 和歌山県,中国地方:31. 鳥取県32. 島根県33. 岡山県34. 広島県35. 山口県,四国地方:36. 徳島県37. 香川県38. 愛媛県39. 高知県,九州地方:40. 福岡県41. 佐賀県42. 長崎県43. 熊本県44. 大分県45. 宮崎県46. 鹿児島県47. 沖縄県|
| 未既婚 | MAR | あなたはご結婚されていますか? | NotMarried:未婚,Married:既婚 |
| 子の有無 | CHI | あなたはお子さんがいらっしゃいますか? | NoChild:いない,Child:いる |